3月25日消息,近日,智源研究院联合生态伙伴研发的开源软件栈众智FlagOS取得重要突破,成功在六款国产AI芯片、三种AI大模型(语言、多模态、具身)及及五个同构+异构的千卡集群上完成端到端训练全要素验证,成为业界首个以统一系统软件栈实现该成果的技术体系。
据悉,在硬件适配层面,众智FlagOS已完成天数智芯、沐曦、寒武纪、海光、摩尔线程、昆仑芯六款主流AI芯片的端到端训练验证,在指定语言模型训练中,各芯片训练效果与国际主流平台高度一致。
在规模化训练层面,众智FlagOS实现了同构与异构千卡集群训练的全面突破,先后在海光、沐曦、摩尔线程三款芯片上完成同构千卡端到端大模型训练,并在沐曦与英伟达、天数智芯与英伟达组成的两大异构千卡集群上实现高效混合训练,充分验证了统一软件栈支撑多元AI算力大规模协同训练的核心能力。
其中,海光同构千卡集群实现了320亿参数多模态大模型的千卡训练;沐曦同构千卡集群在多款大模型训练中,同时实现了高性能与高精度的双重突破,达到国际先进水平;摩尔线程同构千卡集群则成功完成具身智能大模型的全流程训练与优化。而异构训练方面,沐曦与英伟达、天数智芯与英伟达的异构千卡集群均实现高效混合训练,不仅打破了不同硬件之间的协同壁垒,还能让企业根据算力成本、供应链安全等实际需求,灵活配置混合算力集群,在保障训练效果的同时实现资源利用率最大化,为行业算力配置提供了全新思路。
该技术将降低对单一硬件体系的依赖,企业可根据成本和安全需求灵活配置算力资源。智源研究院表示,将继续推进多元算力生态建设,促进AI算力普及应用。(袁宁)